Strzeszczenie analizy

Zbiór danych zawiera informacje na temat zestawów klocków lego ze strony https://rebrickable.com/ . W analizie danych zostały uwzglęgnione zestawy które zawierają figurki. Analiza pokazuje które zestawy potrzebują najwięcej figurek, jak zmieniała się ilość zestawów z figurkami na przestrzeni lat, zbiory które zawierają najwięcej figurek, figurki które występują najczęściej, a także jakie temety zbiorów zawierają najwięcej figurek. Podjęta została także próba predykcji liczby wersji zestawów na podstawie między innymi liczby figurek dla niego.

Podsumowanie rozmiaru zbioru i podstawowe statystyki

Liczba wierszy: 8366 Liczba kolumn: 5

Podstawowe statystyki każdej z kolumn w zbiorze danych:

set_num year name version suma
Length:8366 Min. :1975 Length:8366 Min. :1.000 Min. : 1.000
Class :character 1st Qu.:2006 Class :character 1st Qu.:1.000 1st Qu.: 1.000
Mode :character Median :2014 Mode :character Median :1.000 Median : 2.000
NA Mean :2011 NA Mean :1.099 Mean : 2.648
NA 3rd Qu.:2019 NA 3rd Qu.:1.000 3rd Qu.: 3.000
NA Max. :2023 NA Max. :6.000 Max. :100.000

Szczegółowa analiza wartości atrybutów

Zbiory z największą liczbą figurek:

## # A tibble: 10 × 5
## # Groups:   set_num, year, name [9]
##    set_num    year name                               version  suma
##    <chr>     <int> <chr>                                <int> <int>
##  1 2000409-1  2010 Window Exploration Bag                   1   100
##  2 BIGBOX-1   2015 The Ultimate Battle for Chima            2    92
##  3 1066-1     1982 36 Little People + Accessories           1    36
##  4 852293-1   2008 Fantasy Era Castle Giant Chess Set       1    33
##  5 9247-1     2005 Community Workers                        2    31
##  6 9247-2     2006 Community Workers                        2    31
##  7 9293-1     1996 Community Workers                        1    30
##  8 853373-1   2012 Kingdoms Chess                           1    28
##  9 853373-1   2012 Kingdoms Chess                           2    28
## 10 75159-1    2016 Death Star                               1    27

Figurki które najczęściej pojawiają się w zestawach:

## # A tibble: 10 × 3
## # Groups:   fig_num, minifig_name [10]
##    fig_num    minifig_name                                                 count
##    <chr>      <chr>                                                        <int>
##  1 fig-000020 Classic Spaceman, Red with Airtanks (3842a Helmet)              38
##  2 fig-001127 Classic Spaceman, White with Airtanks (3842a Helmet)            36
##  3 fig-002229 Skeleton, Standard Face, Ball Joint Arms (3626b Head)           33
##  4 fig-000225 Policeman, Black Suit with Pocket and Badge, White Hat (362…    22
##  5 fig-000341 Classic Spaceman, Yellow with Airtanks (3842b Helmet)           21
##  6 fig-000285 Man, Blue Shirt, Blue Legs, Red Hard Hat                        19
##  7 fig-000359 Johnny Thunder (Desert)                                         19
##  8 fig-000208 Fireman, Classic, Black Fire Jacket with Red Belt and Butto…    17
##  9 fig-000406 Blacktron I (3626a Head)                                        16
## 10 fig-000061 Blacktron II - 3626a Head                                       15

Korelacja między zmiennymi

Podsumowanie najważniejszych trendów jakie wyniknęły z analizy zestawów Lego oraz znajdujących się w nich figurek:

  • Najwięcej zestawów zawierających figurki powstało między 2015 a 2020 rokiem
  • Zdecydowana większość zestawów zawierających figurki ma nie więcej niż 5 figurek
  • Najczęście zestawy z figurkami mają 1 wersję
  • Rok z któego zestaw pochodzi nie ma wpływu na średnią liczbę figurek w zestawach. Duże średnie zdażają się zarówno w latach 70-tych XX wieku, jak i w pierwszej dekadzie XXI wieku.

Przewidywanie liczby wersji zestawów lego zawierających figurki

## $method
## [1] "repeatedcv"
## 
## $number
## [1] 2
## 
## $repeats
## [1] 5
## 
## $search
## [1] "grid"
## 
## $p
## [1] 0.75
## 
## $initialWindow
## NULL
## 
## $horizon
## [1] 1
## 
## $fixedWindow
## [1] TRUE
## 
## $skip
## [1] 0
## 
## $verboseIter
## [1] FALSE
## 
## $returnData
## [1] TRUE
## 
## $returnResamp
## [1] "final"
## 
## $savePredictions
## [1] FALSE
## 
## $classProbs
## [1] FALSE
## 
## $summaryFunction
## function (data, lev = NULL, model = NULL) 
## {
##     if (is.character(data$obs)) 
##         data$obs <- factor(data$obs, levels = lev)
##     postResample(data[, "pred"], data[, "obs"])
## }
## <bytecode: 0x000001d43333ab38>
## <environment: namespace:caret>
## 
## $selectionFunction
## [1] "best"
## 
## $preProcOptions
## $preProcOptions$thresh
## [1] 0.95
## 
## $preProcOptions$ICAcomp
## [1] 3
## 
## $preProcOptions$k
## [1] 5
## 
## $preProcOptions$freqCut
## [1] 19
## 
## $preProcOptions$uniqueCut
## [1] 10
## 
## $preProcOptions$cutoff
## [1] 0.9
## 
## 
## $sampling
## NULL
## 
## $index
## NULL
## 
## $indexOut
## NULL
## 
## $indexFinal
## NULL
## 
## $timingSamps
## [1] 0
## 
## $predictionBounds
## [1] FALSE FALSE
## 
## $seeds
## [1] NA
## 
## $adaptive
## $adaptive$min
## [1] 5
## 
## $adaptive$alpha
## [1] 0.05
## 
## $adaptive$method
## [1] "gls"
## 
## $adaptive$complete
## [1] TRUE
## 
## 
## $trim
## [1] FALSE
## 
## $allowParallel
## [1] TRUE